Calidad de datos:
Los datos registrados en una base pueden ser de varios tipos:
- Registros: Cada valor es un registro y se puede almacenar en una matriz (como conjunto fijo de atributos), documento (vector de términos de significado ámplio) o ser parte de una transacción (involucrando a un conjunto de ítems).
- Semi-estructurados: Representados a través de XML (lenguaje de marcación jeráquico muy utilizado para el intercambio de información) o JSON (similar al anterior pero con otras funcionalidades).
- Grafos: Enfocados en problemas basados en grafos o redes.
- Ordenados: Su criterio de orden puede depender de una secuencia, el espacio o el tiempo (stream: cuando estos fluyen continuamente con diferentes velocidades).
Ahora, teniendo los datos guardados suele presuponerse que estos son correctos o que su validez es eterna. La calidad de datos nos dice que es necesario monitorearlos permanentemente, con dinero y/o esfuerzo para que eso pase. Sobre esto es que residen una serie de posibles errores en los datos:
- Fuera de rango
- Falta de estándar
- Invalidez
- Diferencias culturales
- Discrepancias en el formato
- Cosméticas
- Inconsistencias provenientes de metadata
- ...
Para analizar la calidad tenemos varias opciones:
- Análisis univariado: Obtener el valor mínimo, máximo, media, mediana, moda, histogramas y demás datos estadísticos de cada variable.
- Análisis bivariado: Obtener el coeficiente de correlación, tablas de contingencia, diagramas de dispersión y demás entre pares de variables.
- Perfilado de los datos: Analizar la información en cada sitio y buscar inconsistencias.

Gobierno de datos:
Definición: Según la DAMA (Data Management Association) y la Data Resource Management, es el desarrollo y ejecución de arquitecturas, prácticas y procedimientos que manejan adecuadamente las necesidades del ciclo de vida de datos de una empresa. Esto incluye aspectos de calidad, arquitectura, seguridad y metadata de los datos y comprende a toda la organización, no sólo al sistema en sí por ser los datos un activo de ella.
En su implementación conviene empezar con un objetivo poco ambicioso para mostrar su utilidad y luego ir incrementando su nivel de madurez. Nótese que puede necesitarse apoyo económico.
Nivel de madurez:
El nivel de madurez del gobierno de datos se divide en:
- Indisciplinado: Las decisiones de negocio dependen de la tecnología, los datos pueden ser inconsistentes o duplicados y hay poca flexibilidad para mantener los cambios de negocio.
- Reactivo: El negocio influye sobre las decisiones de tecnología, la información es redundante y poco controlada y hay un alto costo en mantener múltiples aplicaciones.
- Proactivo: Los equipos de negocio y tecnología trabajan de manera colaborativa y los datos son un activo de la compañía.
- Gobernado: Los modelos de negocio definen las decisiones tecnológicas, hay procesos estandarizados para definir la gestión de los activos de los datos, las decisiones corporativas se toman con datos certeros y se obtienen beneficios por la aplicación del programa de gobierno.
Roles principales:
Hay una serie de roles involucrados en el gobierno de datos:
- Chief Data Officer: Máximo responsable del programa y lider del equipo. Encargado de definir y/o colaborar en las iniciativas del gobierno de datos, promoviendo, negociando y justificando cambios en la estrategia de datos corporativa.
- Arquitecto de datos: Desarrollador de la arquitectura de datos para atender a los requerimientos de negocio. Encargado de desarrollar estándares y procedimientos de diseño y modelado, supervisarlos para cada componente y aprobar las características de desarrollo de aplicaciones e interfaces que afecten la arquitectura.
- Data owner: Máxima autoridad de aprobación respecto de los riesgos de gobierno en su dominio. Gestiona el ciclo de vida de los datos con sus permisos de acceso, calidad y riesgos, colabora en el gobierno de datos y conoce su significado.
- Data steward: Quienes apoyan a los anteriores al comprender sus procesos de negocio y datos producidos. Responsables de escribir e implementar reglas de calidad de datos, atender a sus problemas y escalarlos de darse el caso. Tiene responsabilidades concretas y puede efectuar acciones en nombre del dueño para liberar el flujo.
- Custodio de datos: Soporte en las áreas de bajo nivel y de telecomunicaciones de las plataformas, sistemas y aplicaciones en que residen los datos de los anteriores. Pueden tener cierta responsabilidad operativa y se encargan de mantener la integridad y seguridad de los datos, cumpliendo con las políticas del programa.

Administrador de datos:
Es una persona (o conjunto de ellas) responsable de administrar los datos de manera funcional o lógica. Se diferencia del DBA en que el segundo es especialista en el motor de la DB.
Sus tareas principales son:
- Recolectar y analizar los requerimientos, modelando el negocio en base a ellos (conceptual y lógico).
- Definir estándares sobre los datos y asegurar su cumplimiento.
- Conducir sesiones de definición de datos.
- Manejar y administrar repositorios de metadata y herramientas de modelado.
- Asistir al DBA en la creación de modelos físicos a partir de los lógicos.
Nótese que la definición de los datos suele encontrarse en dos lugares desde el punto de vista del negocio:
- La mente de las personas: Si son reglas no escritas existentes en todas las áreas que interactúan con ellos. Estas son vulnerables a baja calidad por falta de consistencia o confianza.
- Los modelos de los datos: Se representan a través de las herramientas de modelado pero suelen reflejar sólo el estado final y no los cambios.

Privacidad:
Es una preocupación creciente con numerosas regulaciones locales e internacionales al respecto. Se centra en garantizar la protección de los datos para todos sus usuarios más allá de dónde estén. En el ámbito local (Argentina) existen numerosos secretos estadísticos, fiscales y educativos, más allá de haber una agencia de acceso a la información pública y una dirección nacional de protección de datos personales.